【深度強化學習】9. Policy Gradient實現中核心部分torch.distributions
【導語】:在深度強化學習第四篇中,講了Policy Gradient的理論。通過最終推導得到的公式,本文用PyTorch簡單實現以下,並且盡可能搞清楚torch.distribution的使用方法。代 ...
【導語】:在深度強化學習第四篇中,講了Policy Gradient的理論。通過最終推導得到的公式,本文用PyTorch簡單實現以下,並且盡可能搞清楚torch.distribution的使用方法。代 ...